实际数据脱敏工作中需要注意哪些问题
实际数据脱敏工作中需要注意的问题如下:
数据脱敏算法不可逆:数据脱敏算法通常应当是不可逆的,必须防止使用非敏感数据推断、重建敏感原始数据。但在一些特定场合,也存在可恢复式数据脱敏需求。
保留源数据特征:脱敏后的数据应具有原数据的大部分特征,因为它们仍将用于开发或测试场合。带有数值分布范围、具有指定格式(如信用卡号前四位指代银行名称)的数据,在脱敏后应与原始信息相似;姓名和地址等字段应符合基本的语言认知,而不是无意义的字符串。在要求较高的情形下,还要求具有与原始数据一致的频率分布、字段唯一性等。
数据引用的完整性:数据的引用完整性应予保留,如果被脱敏的字段是数据表主键,那么相关的引用记录必须同步更改。
非敏感字段同样脱敏处理:对所有可能生成敏感数据的非敏感字段同样进行脱敏处理。例如,在学生成绩单中为隐藏姓名与成绩的对应关系,将“姓名”作为敏感字段进行变换。但是,如果能够凭借某“籍贯”的唯一性推导出“姓名”,则需要将“籍贯”一并变换。
数据脱敏过程应是自动化、可重复的:因为数据处于不停的变化中,期望对所需数据进行一劳永逸式的脱敏并不现实。生产环境中数据的生成速度极快,脱敏过程必须能够在规则的引导下自动化进行,才能达到可用性要求;另一种意义上的可重复性,是指脱敏结果的稳定性。在某些场景下,对同一字段脱敏的每轮计算结果都相同或者都不同,以满足数据使用方可测性、模型正确性、安全性等指标的要求。
实现数据脱敏需求,并保证脱敏过程安全:随着互联网的普及、大数据价值的飙升,敏感信息泄漏事件已经充斥在日常生活中,企业是敏感信息的聚集地,也是数据泄漏的源头。数据共享、分析等才有价值,也就导致数据泄漏。目前脱敏是国家法律法规要求,也是企业核心数据不被泄漏的基本保护措施,在脱敏过程中也需要保证数据安全,防止脱敏过程中核心数据泄漏,实现合规。